[アップデート]Amazon Q Developerが SWE-benchでトップの性能を示しました

発表された「Amazon Q Developer now tops the SWE Bench」は、SWE Bench にてトップの成績について解説します。

AWS re:Invent 2024

2024.12.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

コンニチハ、千葉です。
現在ラスベガスで開催中の AWS re:Invent 2024 の Keynote にて発表された 「Amazon Q Developer now tops the SWE Bench」について解説します。
 What is this?発表された「Amazon Q Developer now tops the SWE Bench」は、新しい機能ではなく、Amazon Q Developerが SWE-bench にて トップの成績を出したという発表でした。
 SWE-Benchとは？SWE-bench（Software Engineering Benchmark）は、実際のソフトウェア開発における課題を解決するAIモデルの性能を評価するためのベンチマークデータセットです。このデータセットは、人気のある12のPythonリポジトリから収集された2,294のGitHubのIssueとそれに対応するPull Requestのペアで構成されています。
SWE-benchの目的は、AIモデルが現実世界のソフトウェア開発タスク、特にバグ修正や機能追加といった課題をどの程度効果的に解決できるかを評価することです。これにより、AIのプログラミング能力をより現実的なシナリオで測定することが可能となります。
評価方法としては、各Issueに対してAIモデルが生成したコード修正（パッチ）を適用し、その結果が既存のユニットテストを通過するかどうかで判断します。これにより、AIモデルが提案した解決策の正確性と有効性を客観的に測定することができます。
SWE-benchは、AIモデルのプログラミング能力を評価するための新たな基準として注目されています。特に、従来のベンチマークでは測定が難しかった現実的で複雑なソフトウェア開発タスクに対するAIの対応力を評価する点で重要です。
 今回のポイントAmazon Q Developerの実績です。
非常にある人気あるベンチマーク SWE-benchでソフトウェア開発の54.8%を解決した
7か月前のSWE-benchベンチマークに比べて2倍以上の性能になっている
NFLやUBITEDなど、JAVAのアップグレードにAmazon Q Developerを使っている
 さいごに新しいサービスの発表と思いきや、性能検証でいい成績だぞ、という発表でした。前に使って微妙と思った方は再度試すと新しい発見があるかもしれません。すごいぞ Amazon Q Developer。

[アップデート]Amazon Q Developerが SWE-benchでトップの性能を示しました

What is this?

SWE-Benchとは？

今回のポイント

さいごに

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS